Data Overview
import_data("jake_gyllenhaal")
filmes <- read_imported_data()
filmes %>%
glimpse()
Observations: 20
Variables: 5
$ avaliacao <int> 92, 67, 72, 52, 73, 59, 82, 85, 92, 49, 35, 64, 47, 90, 87, 61, 62, 44, 82, 86
$ filme <chr> "Stronger", "Life", "Nocturnal Animals", "Demolition", "Everest", "Southpaw", "Prisoners", "End of Watch", "Sour...
$ papel <chr> "Jeff Bauman", "David Jordan", "Tony HastingsEdward Sheffield", "Davis Mitchell", "Scott Fischer", "Billy \"The ...
$ bilheteria <dbl> 4.2, 30.2, 10.7, 1.7, 46.6, 42.4, 61.0, 39.1, 54.7, 33.3, 90.8, 28.6, 9.7, 33.0, 83.0, 62.6, 7.5, 186.6, 13.8, 4.2
$ ano <int> 2017, 2017, 2016, 2016, 2015, 2015, 2013, 2012, 2011, 2010, 2010, 2009, 2007, 2007, 2005, 2005, 2005, 2004, 2002...
Box Office
- Data refers to revenue collected inside the USA.
p <- filmes %>%
ggplot(aes(x = ano,
y = bilheteria,
text = paste("Movie:",filme,
"\nBox Office:",
bilheteria,"m",
"\nYear:",ano))) +
geom_point(size = 4, color = paleta[1]) +
labs(y = "Box Office (MM)", x = "Year of release")
ggplotly(p, tooltip = "text") %>%
layout(autosize = F)
Among the movies where Jake acted one sets itself apart from others in terms of revenue: The movie “The Day After Tomorrow” released in 2004.
It’s possible to notice a downward trend in the Box Office of the movies where Jake acted after 2013.
filmes %>%
ggplot(aes(x = bilheteria)) +
geom_histogram(aes(y=(..count..)/sum(..count..)),binwidth = 10, boundary = 0,
fill = "grey", color = "black") +
geom_rug(size = .5) +
scale_x_continuous(breaks=seq(0,200,20)) +
labs(y = "Relative Frequency", x = "Box Office (MM)")

We see a clear disparity between “The Day After Tomorrow” and the rest of the movies.
No values outside expected domain, e.g. negative values.
p <- filmes %>%
ggplot(aes(x = "",
y = bilheteria,
label = filme,
text = paste("Movie:",filme,
"\nBox Office:",
bilheteria,"m"))) +
geom_jitter(width = .05, alpha = .3, size = 3) +
labs(x = "", y="Box Office (MM)")
ggplotly(p, tooltip="text") %>%
layout(autosize = F)
Separate movies in those whose Box Office is below 50 millions and those whose Box Office is above that seems a reasonable approach.
“The Day After Tomorrow” seems to form a group of its own. Which would give us 3 groups.
Rating
p <- filmes %>%
ggplot(aes(x = ano,
y = avaliacao,
text = paste("Movie:",filme,
"\nRating:",
avaliacao,
"\nYear:",ano))) +
geom_point(size = 4, color = paleta[1]) +
scale_y_continuous(limits = c(0, 100)) +
labs(y = "Rating RT", x = "Year of Release")
ggplotly(p, tooltip = "text") %>%
layout(autosize = F)
- Between 2005 and 2010 Jake participated in a particular series of movies that did not please the critics.
- There doesn’t seem to exist a particularly clear tendency in the year of release.
filmes %>%
ggplot(aes(x = avaliacao)) +
geom_histogram(aes(y=(..count..)/sum(..count..)),binwidth = 10, boundary = 0,
fill = paleta[3], color = "black") +
geom_rug(size = .5) +
scale_x_continuous(breaks=seq(0,100,10)) +
labs(y = "Relative Frequency", x = "Rating RT")

It’s possible to notice a considerable number of movies with ratings above 80.
No values outside expected domain, e.g. negative values.
p <- filmes %>%
ggplot(aes(x = "",
y = avaliacao,
text = paste(
"Filme:",filme,
"\nAvaliação:",avaliacao))) +
geom_jitter(width = .05, alpha = .3, size = 3) +
labs(x = "", y="Avaliação RT")
ggplotly(p, tooltip = "text") %>%
layout(autosize = F)
- Intuitively three groups arise:
- The movies with ratings above 80
- The movies with ratings between 55 and 70
- The movies with ratings below 55
---
title: "Jake Gyllenhaal's type of movies"
author: "José Benardi de Souza Nunes"
date: "22/05/2018"
output:
  html_notebook:
    toc: yes
    toc_float: yes
  html_document:
    df_print: paged
    toc: yes
    toc_float: yes
---

<br/><br/>

# Introdução

> Exploratory data analysis on data from [RottenTomatoes](https://www.rottentomatoes.com/) about actor Jake Gyllenhaal. The code used to mine the data here analyzed and the explanation on how to use it can be found on [this report's repository](https://github.com/Benardi/agrupamento-filmes/) deste relatório.

* Entries that have no infomation about box office were ignored.

<br>

***

<br>

```{r echo=FALSE, message=FALSE, warning=FALSE}
library(tidyverse)
library(here)
library(cluster)
library(plotly)
library(ggdendro)

source(here::here("code/lib.R"))
source(here::here("code/plota_solucoes_hclust.R"))

theme_set(theme_report())

knitr::opts_chunk$set(tidy = FALSE,
                      fig.width = 6,
                      fig.height = 5,
                      echo = TRUE)
paleta = c("#404E4D",
           "#92DCE5",
           "#938BA1",
           "#2D3142",
           "#F4743B")
set.seed(101)
```

# Data Overview

```{r message=FALSE, warning=FALSE}
import_data("jake_gyllenhaal") 
filmes <- read_imported_data()
filmes %>% 
    glimpse()
```

## Box Office

* Data refers to revenue collected inside the USA.

```{r}
p <- filmes %>%
    ggplot(aes(x = ano, 
               y = bilheteria,
               text = paste("Movie:",filme,
                            "\nBox Office:",
                            bilheteria,"m",
                            "\nYear:",ano))) + 
    geom_point(size = 4, color = paleta[1]) +
    labs(y = "Box Office (MM)", x = "Year of release")

ggplotly(p, tooltip = "text") %>%
    layout(autosize = F)
```

* Among the movies where Jake acted one sets itself apart from others in terms of revenue: The movie **"The Day After Tomorrow"** released in 2004.

* It's possible to notice a downward trend in the Box Office of the movies where Jake acted after 2013.  

```{r}
filmes %>% 
    ggplot(aes(x = bilheteria)) + 
    geom_histogram(aes(y=(..count..)/sum(..count..)),binwidth = 10, boundary = 0, 
                   fill = "grey", color = "black") + 
    geom_rug(size = .5) +
    scale_x_continuous(breaks=seq(0,200,20)) +
    labs(y = "Relative Frequency", x = "Box Office (MM)")
```

* We see a clear disparity between **"The Day After Tomorrow"** and the rest of the movies.

* No values outside expected domain, e.g. negative values.

```{r}
p <- filmes %>% 
    ggplot(aes(x = "",
               y = bilheteria,
               label = filme,
               text = paste("Movie:",filme,
                            "\nBox Office:",
                            bilheteria,"m"))) + 
    geom_jitter(width = .05, alpha = .3, size = 3) + 
    labs(x = "", y="Box Office (MM)")

ggplotly(p, tooltip="text") %>% 
    layout(autosize = F)
```

* Separate movies in those whose Box Office is below 50 millions and those whose Box Office is above that seems a reasonable approach. 

* **"The Day After Tomorrow"** seems to form a group of its own. Which would give us 3 groups.

## Rating

```{r}
p <- filmes %>% 
    ggplot(aes(x = ano, 
               y = avaliacao,
                text = paste("Movie:",filme,
                            "\nRating:",
                            avaliacao,
                            "\nYear:",ano))) + 
    geom_point(size = 4, color = paleta[1])  +
    scale_y_continuous(limits = c(0, 100)) +
    labs(y = "Rating RT", x = "Year of Release")

ggplotly(p, tooltip = "text") %>%
    layout(autosize = F)
```

* Between 2005 and 2010 Jake participated in a particular series of movies that did not please the critics. 
* There doesn't seem to exist a particularly clear tendency in the year of release. 

```{r}
filmes %>% 
    ggplot(aes(x = avaliacao)) + 
    geom_histogram(aes(y=(..count..)/sum(..count..)),binwidth = 10, boundary = 0, 
                   fill = paleta[3], color = "black") + 
    geom_rug(size = .5) +
    scale_x_continuous(breaks=seq(0,100,10)) +
    labs(y = "Relative Frequency", x = "Rating RT")
```

* It's possible to notice a considerable number of movies with ratings above 80.

* No values outside expected domain, e.g. negative values.

```{r}
p <- filmes %>% 
    ggplot(aes(x = "",
               y = avaliacao,
               text = paste(
                    "Filme:",filme,
                    "\nAvaliação:",avaliacao))) + 
    geom_jitter(width = .05, alpha = .3, size = 3) + 
    labs(x = "", y="Avaliação RT")

ggplotly(p, tooltip = "text") %>% 
    layout(autosize = F)

```

* Intuitively three groups arise:
    * The movies with ratings above 80
    * The movies with ratings between 55 and 70 
    * The movies with ratings below 55

<br>

***

<br>

# Hierarchical Clustering

<br>
<br>

## One dimension

<br>

### Box Office

```{r}
agrupamento_h = filmes %>% 
    mutate(nome = paste0(filme, " (bil=", bilheteria, ")")) %>% 
    as.data.frame() %>% 
    column_to_rownames("filme") %>% 
    select(bilheteria) %>%
    dist(method = "euclidian") %>% 
    hclust(method = "centroid")

ggdendrogram(agrupamento_h, rotate = T, size = 2, theme_dendro = F) +
    labs(y = "Dissimilarity", x = "", title = "Dendrogram") +
    geom_hline(aes(yintercept = c(20,30), color=c("4 grupos","3 grupos"))) +
    scale_colour_manual(name="#Groups",
    values=c("#56B4E9", "#FF9999"))
```

* In terms of Dendogram the separation in four and three groups seems apropriate, given that the increase in dissimilarity from 4 to 3 groups doesn't seem to be substantial.
* Cut made for 4 groups

```{r}
atribuicoes = get_grupos(agrupamento_h, num_grupos = 1:6)

atribuicoes = atribuicoes %>% 
    left_join(filmes, by = c("label" = "filme"))

atribuicoes %>% 
    ggplot(aes(x = "Movies", y = bilheteria, colour = grupo)) + 
    geom_jitter(width = .02, height = 0, size = 1.6, alpha = .6) + 
    facet_wrap(~ paste(k, " groups")) + 
    scale_color_brewer(palette = "Dark2") +
    labs(y = "Box Office (MM)", x = "", title = "Grouping by Box Office") +
    guides(color=guide_legend(title="group"))
```

* The division in 4 groups seems more appropriate than the division in 3 groups.
    * The movie cluster on the base of chart seems to require its own group (In the 4 groups division the aforementioned group would be the group 1).

```{r}
k_escolhido = 4

m <- list(l = 220)

p <-atribuicoes %>% 
    filter(k == k_escolhido) %>% 
    ggplot(aes(x = reorder(label, bilheteria),
               y = bilheteria,
               colour = grupo,
               text = paste(
                    "Movie:", reorder(label, bilheteria),
                    "\nRating:", bilheteria,
                    "\nGroup:", grupo))) + 
    geom_jitter(width = .02, height = 0, size = 3, alpha = .6) + 
    facet_wrap(~ paste(k, " groups")) + 
    scale_color_brewer(palette = "Dark2") + 
    labs(x = "", y = "Rating RT") + 
    guides(color=guide_legend(title="group")) +
    coord_flip()

ggplotly(p,tooltip = "text") %>%
    layout(autosize = F, margin = m)

```

* **The Day After Tomorrow** demanded a group for itself, as expected.

<br>

### Rating 

```{r}
agrupamento_h = filmes %>% 
    mutate(nome = paste0(filme, " (av=", avaliacao, ")")) %>% 
    as.data.frame() %>% 
    column_to_rownames("filme") %>% 
    select(avaliacao) %>%
    dist(method = "euclidian") %>% 
    hclust(method = "ward.D")

ggdendrogram(agrupamento_h, rotate = T, size = 2, theme_dendro = F) +
    labs(y = "Dissimilarity", x = "", title = "Dendrogram") +
    geom_hline(aes(yintercept = 30),color="red")
```

* In terms of Dendogram the **division in three groups seems the most appropriate**, given that the increase in dissimilarity becomes substantial when we go from 3 to 2 groups.

```{r}
atribuicoes = get_grupos(agrupamento_h, num_grupos = 1:6)

atribuicoes = atribuicoes %>% 
    left_join(filmes, by = c("label" = "filme"))

atribuicoes %>% 
    ggplot(aes(x = "Movies", y = avaliacao, colour = grupo)) + 
    geom_jitter(width = .02, height = 0, size = 1.6, alpha = .6) + 
    facet_wrap(~ paste(k, " groups")) + 
    scale_color_brewer(palette = "Dark2") +
    guides(color=guide_legend(title="group")) +
    labs(y = "Rating RT", x = "", title = "Grouping by Rating")

```

* Visually the division in three groups seems appropriate in accordance with the dendogram.

```{r}
k_escolhido = 3

m <- list(l = 220)

p <-atribuicoes %>% 
    filter(k == k_escolhido) %>% 
    ggplot(aes(x = reorder(label, avaliacao),
               y = avaliacao,
               colour = grupo,
               text = paste(
                    "Movie:", reorder(label, avaliacao),
                    "\nRating:", avaliacao,
                    "\nGroup:", grupo))) + 
    geom_jitter(width = .02, height = 0, size = 3, alpha = .6) + 
    facet_wrap(~ paste(k, " groups")) + 
    scale_color_brewer(palette = "Dark2") + 
    labs(x = "", y = "Rating RT") + 
    guides(color=guide_legend(title="group")) +
    coord_flip()

ggplotly(p,tooltip = "text") %>%
    layout(autosize = F, margin = m)

```

* Arguably, **Prince of Persia: The Sands of Time** could demand a group of its own.

<br>

## Two dimensions

<br>

### Quantos grupos devemos escolher? 

<br>

```{r, warning=FALSE}
agrupamento_h_2d = filmes %>%
   mutate(bilheteria = log10(bilheteria)) %>%
   mutate_at(vars("avaliacao", "bilheteria"), funs(scale)) %>%
   column_to_rownames("filme") %>%
   select("avaliacao", "bilheteria") %>%
   dist(method = "euclidean") %>%
   hclust(method = "ward.D")

ggdendrogram(agrupamento_h_2d, rotate = TRUE, theme_dendro = F) +
    labs(y = "Dissimilaridade", x = "", title = "Dendrograma") +
    geom_hline(aes(yintercept = 4),color="red")

```

* Passar de 4 para 3 grupos representa pouca variação em termos de dissimilaridade
* Passar de 3 para 2 grupos apresenta um aumento relativo de dissimilaridade substancial, portanto de 6 até 3 grupos parece ser uma boa escolha em termos de dendrograma.

```{r}
filmes2 <- filmes %>%
    mutate(bilheteria = log10(bilheteria))

plota_hclusts_2d(agrupamento_h_2d,
                filmes2,
                c("avaliacao", "bilheteria"),
                linkage_method = "ward.D", 
                ks = 1:6,
                palette = "Dark2") + 
    scale_y_log10() +
    labs(y = "Bilheteria", x = "Avaliação", title = "Agrupamento com Duas Dimensões")
```

* A escolha por 5 grupos parece ser apropriada, por refletir tanto questões de bilheteria como de avaliação. **Optaremos por 5 grupos** pelas seguintes razões (Grupos mencionados no agrupamento de 5 grupos): 
    * Os $\color{magenta}{\text{4 filmes de melhores avaliações}}$ estão bem próximos uns dos outros e sugerem um grupo.
    * Os $\color{#7C3F7C}{\text{3 filmes de baixas bilheterias e baixas avaliações}}$ estão bem distantes do resto dos filmes e sugerem um grupo.
    * Os $\color{#16A085}{\text{4 filmes de baixa bilheteria e boas avaliações}}$ estão bem próximos uns dos outros e sugerem um grupo.
    * Os $\color{green}{\text{2 filmes de altíssima bilheteria e baixíssima avaliação}}$ estão bem distantes do resto dos filmes e sugerem um grupo.
    * Os $\color{#CF5300}{\text{6 filmes centrais/medianos em termos de bilheteria/avaliação}}$ estão bem próximos uns dos outros e sugerem um grupo.
    
    

```{r}
atribuicoes = get_grupos(agrupamento_h_2d, num_grupos = 1:6)

atribuicoes = atribuicoes %>% 
    filter(k == 5) %>%
    mutate(filme = label) %>% 
    left_join(filmes, by = "filme")

p <- atribuicoes %>%
    ggplot(aes(x = avaliacao,
               y = bilheteria,
               colour = grupo,
               text = paste(
                    "Filme:", filme,
                    "\nBilheteria:", bilheteria,"m\n",
                    "Avaliação:", avaliacao))) + 
    geom_jitter(width = .02, height = 0, size = 3, alpha = .6) + 
    facet_wrap(~ paste(k, " grupos")) + 
    scale_color_brewer(palette = "Dark2") +
    scale_y_log10() +
    labs(y = "Bilheteria", x = "Avaliação RT")


ggplotly(p, tooltip = "text") %>%
    layout(autosize = F)
```

<br>

***

<br>

### Quais os nomes dos grupos? 

<br>

$\color{#16A085}{\text{Grupo 1 (Oddball):}}$ Filmes em geral _bem recebidos pela crítica porém mal recebidos pelo público_, o que se reflete no seu baixo arrecadamento. O nome Oddball parte do interese de pessoas que se consideram excêntricas em buscarem filmes nesse perfil para revalidarem o sentimento de exclusividade.

<br/>

$\color{#CF5300}{\text{Grupo 2 (Sessão da Tarde):}}$ Filmes em geral _não tão bem recebidos pela crítica e mais formulaicos_. Em termos de bilheteria a maior parte deles foi baixa mas o filme se pagou.O nome Sessã da Tarde parte da ideia de que filmes mais formulaicos e inexpressivos em termos de bilheteria como os do grupo povoarem esse horário da tv brasileira.

<br/>

$\color{#7C3F7C}{\text{Grupo 3 (Demolition of a budget):}}$ Filmes em geral _mal recebidos pela crítica e pelo público_, o que se reflete no seu baixo arrecadamento e avaliações. O nome do grupo parte do baxissimo rendimento dos filmes em termos financeiros, a "demolição" do dinheiro investido na produção do filme. 

<br/>

$\color{magenta}{\text{Grupo 4 (Broke Records and Awards):}}$ Filmes _aclamados pela crítica_ e de faturamento decente ou de  sucesso, os filmes desse grupo são de tom mais sério tratando de assuntos significativos e geradores de controvérsia (assassinatos em série verídicos, não heterossexualidade, terrorismo.. ). O nome do grupo é um trocadilho com o nome de um dos filmes e a quantidade exorbitante de prêmios que esse filme ganhou. 

<br/>

$\color{green}{\text{Grupo 5 (BlockBusters):}}$ Filmes em que Jack atuou que os críticos não gostaram lá muito mas que excederam em bilheteria, com uma arrecadação girando na casa da centena de milhões de dólares. O termo BlockBuster é usualmente dado a filmes que lotam as salas de cinema, que é o caso dos filmes pertencentes a esse grupo.

<br>

***

<br/>

### Filme-exemplo de cada grupo  

<br/>

$\color{#16A085}{\text{Grupo 1 (Oddball):}}$

* **Stronger**: Filme biográfico sobre 'Jeff Bauman', vítima do atentado de Boston que perdeu ambas as pernas na explosão. O filme foi muito bem recebido pelos críticos que o elogiaram por ser bem executado, comovente e por focar numa história de superação ao invés de usar a tragédia para alimentar a paranóia em cima do terrorismo. O filme porém foi um fracasso em termos de bilheteria.

<br/>

$\color{#CF5300}{\text{Grupo 2 (Sessão da Tarde):}}$

* **Life**: Filme no gênero ficção científica espacial, teve um arrecadamento não muito expressivo
assim como críticas igualmente pouco entusiasmadas. Foi considerado por muitos bem executados porém pouco inovativo.

<br/>

$\color{#7C3F7C}{\text{Grupo 3 (Demolition of a budget):}}$ 

* **Demolition**: Neste filme Jake atua no papel de um homem que volta ao trabalho depois de perder a esposa e encontra contato humano em uma atendente de telemarketing ao reclamar de uma vending machine. O filme foi um fracasso em termos de arrecadamento assim como em termos de crítica. O filme teve seu script apontado como grande problema, esse foi descrito como 'tentando afetar profundidade' e anti-carismático.
    
<br/>

$\color{magenta}{\text{Grupo 4 (Broke Records and Awards):}}$

* **Brokeback Mountain**: Provavelmente a melhor atuação de Jake Gyllenhaal até o momento, esse filme rendeu a Jake uma indicação ao Oscar e levantou muita controvérsia por conter uma cena de sexo entre pessoas do mesmo sexo. A Academia (responsável por escolher os vencedores do Oscar) foi acusada de homofobia por não escolher esse filme como o ganhador de Melhor Fotografia, ainda assim Brokeback Mountain ganhou outros 141 prêmios e 128 nominações de acordo com o IMDB. O filme foi considerado um sucesso tanto em faturamento como em avaliação.

<br/>

$\color{green}{\text{Grupo 5 (BlockBusters):}}$ 

* **Prince of Persia: The Sands of Time**: Baseado no jogo de mesmo nome, jogo que ainda é pra muitos uma referência em qualidade e inovação. O filme resultou em comentários decepcionados tanto de críticos e fãs, os quais curiosamente não falharam em contribuir pro arrecadamento do filme.
    
